對比資料利用模式：標註範疇

機器學習模型的成功部署，關鍵在於標註資料的可取得性、品質與成本。在人工標註昂貴、不可行或高度專業化的環境中，傳統模式會變得效率低下甚至完全失效。我們提出『標註範疇』的概念，根據資訊使用方式區分出三種核心方法：監督式學習（SL）、非監督式學習（UL）以及半監督式學習（SSL）。

1. 監督式學習（SL）：高準確度，高成本

監督式學習在每個輸入 $X$ 都明確配對已知真實標籤 $Y$ 的資料集上運作。雖然此方法通常能為分類或迴歸任務帶來最高的預測準確度，但其對密集且高品質標註資料的依賴，使得資源消耗極大。若標註樣本稀少，性能會急劇下降，導致該模式脆弱不堪，對於龐大且持續演變的資料集而言，經濟上常難以維持。

2. 非監督式學習（UL）：潛在結構探勘

非監督式學習僅處理未標註資料 $D = \{X_1, X_2, ..., X_n\}$。其目標是推斷資料流形內的固有結構、底層機率分布、密度，或有意義的表示方式。主要應用包括聚類、流形學習與表示學習。非監督式學習在資料前處理與特徵工程方面極具成效，能在無需外部人為介入的情況下提供寶貴洞見。

半監督式學習的橋樑

半監督式學習（SSL）是一種實用的折衷方案，透過少量但昂貴的標註資料集 ($D_L$) 來穩固預測基礎，同時利用龐大且低成本的未標註資料集 ($D_U$) 來建模資料分布。這種模式有效緩解了標註成本的瓶頸，在現實世界情境中實現強健的泛化能力。

Diagram of the labeling spectrum showing Supervised, Unsupervised, and Semi-Supervised Learning.

問題 1

哪一種學習模式專門設計用於藉由大量未標註資料，減輕對昂貴人工資料標註的高度依賴？

監督式學習

非監督式學習

半監督式學習

強化學習

問題 2

如果模型的主要任務是降維（例如尋找主成分）或聚類，哪一種模式被普遍採用？

監督式學習

半監督式學習

非監督式學習

遷移學習

挑戰：定義半監督式學習的目標

整合損失函數的構思

與僅依據標註資料準確度進行優化的監督式學習不同，半監督式學習需要一種平衡的優化策略。總損失必須同時捕捉在標註資料集上的預測準確度，並在未標註資料集上強制執行一致性（例如平滑性或低密度分離）。

給定：$D_L$：標註資料。$D_U$：未標註資料。$\mathcal{L}_{SL}$：監督式損失函數。$\mathcal{L}_{Consistency}$：在 $D_U$ 上強制預測平滑性的損失。

第一步

請寫出總體最佳化目標 $\mathcal{L}_{SSL}$ 的一般形式，並包含一個權重係數 $\lambda$，以控制未標註一致性項的影響。

解答：
半監督式學習總損失的概念形式是兩個組成部分的加權和：$\mathcal{L}_{SSL} = \mathcal{L}_{SL}(D_L) + \lambda \cdot \mathcal{L}_{Consistency}(D_U)$。其中純量 $\lambda$ 控制著標註忠誠度與結構依賴之間的權衡。